Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.
В этом подходе есть и плюсы и минусы: + Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми. + Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка. + Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель. - Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей. - Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.
Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.
Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.
Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.
В этом подходе есть и плюсы и минусы: + Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми. + Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка. + Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель. - Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей. - Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.
Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.
Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.
BY LLM Arena
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.
Telegram Be The Next Best SPAC
I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.